做為第一次參賽的菜鳥,不免俗的第一篇還是以原因和規劃做為開場,也是一個深呼吸準備好面對未來三十天挑戰的一個沈澱。
什麼參賽呢?莫過是 TD 哥的鼓勵與拐騙入了坑,竟然入坑那就好好寫/學些什麼吧,因此檢視了現在工作上的範疇與過往的一直想觸及技術,選擇了分散式運算作為這次的主題。
在職場上,我的身份是一個數據分析師,主要在做一些數據洞察與探勘。在工作之餘接一些爬蟲的案子來玩玩,對 Python 有種無法自拔的熱愛,而這點也會導引著未來 30 天文章的走向。
這個系列的文章如同名稱所定義的,會被分為資料收集與分散式運算兩部分。關於資料收集的部分會著重在爬蟲的相關分享,其中會包含:
至於分散式運算會被定義成學習筆記,對於整個學習過程比較像是順藤摸瓜,現階段比較明確的是會圍繞在 Hadoop 這個生態系進行學習,對於 Hadoop 目前規劃的幾個大項目會有:
希望能夠盡量完整的寫出有幫助的學習筆記!今天就先這樣,啤酒也差不多見底了,我們明天見!